该内容已被发布者删除 该内容被自由微信恢复
文章于 2022年12月22日 被检测为删除。
查看原文
被用户删除
其他

好文荐读|汉语水平考试(HSK)阅读文本可读性自动评估研究

杜月明等 语言学心得 2022-12-22


好文荐读(第五十九期)汉语水平考试(HSK)阅读文本可读性自动评估研究。

好文荐读不定期更新,为大家带来最新的核心期刊亮眼论文,希望大家多多支持,也欢迎给我们留言推荐更多值得一荐的好文哦~




汉语水平考试(HSK)阅读文本可读性自动评估研究
杜月明1,王亚敏 1, 王 蕾 2


1. 北京大学对外汉语教育学院 北京 100871

2. 北京语言大学汉语速成学院 北京 100083


   

文章简介

文章来源:杜月明,王亚敏,王蕾.汉语水平考试(HSK)阅读文本可读性自动评估研究[J].语言文字应用,2022(03):73-86.


摘要:本文基于汉语二语文本可读性的特征集合,通过对比六种机器学习模型的效果,引入特征选择算法,实现了汉语水平考试(HSK)阅读文本可读性的自动评估。实验结果表明,支持向量机模型在HSK阅读文本可读性评估中的表现最好;基于汉字、词汇、句法和篇章的全特征模型的预测准确率达 0.876;不同层面的特征预测能力存在差异,其中词汇层面表现最好;剔除冗余特征后,词汇和汉字两个层面的18个特征进入最优模型,句法和篇章特征未能进入该模型。本研究对 HSK 阅读文本的选择和改编及其他类型的文本可读性评估具有一定的参考意义。

关键词:文本可读性;HSK 阅读文本;语言特征;机器学习;支持向量机

基金项目: 本研究得到国家社会科学基金重大项目“面向全球孔子学院的中国概况教学创新研究及其数字课程建设” (18ZDA339)的资助。

感谢《语言文字应用》授权推广,全文下载请点击文末“阅读原文”。


一.引言

 汉语水平考试(简称“HSK”)是一项国际汉语能力标准化考试,在国际中文教育领域发挥着重要作用(张晋军等,2010;江新等,2020)。阅读测试作为 HSK 的重要组成部分,主要考察汉语二语者的综合阅读能力,其文本难度级别划分的合理与否直接影响测试结果的科学性。因此,如何为 HSK 选择难度适宜的阅读语料仍是命题中需要解决的问题。文本可读性(text readability)与文本难度密切相关,指的是语言材料被读者理解的程度(Dale & Chall,1948;McLaughlin,1969;Klare,2000),是教材编写、教材评估、分级阅读、语言测试中的重要参照指标。一般而言,文本可读性受读者、环境、文本自身难度等因素的协同影响,但考虑到读者的个体差异性和外部环境的多变性,通过语言特征评估文本难度是可读性研究的重点。

在汉语二语文本可读性研究领域,研究者主要以教材作为研究对象,从汉字、词汇、句子等语言指标入手,制定可读性公式,衡量文本难度(张宁志,2000;邹红建、杨尔弘,2006;郭望皓,2010;左虹、朱勇,2014;王蕾,2017)。江新等(2020)较早地将可读性概念引入 HSK 阅读文本之中,通过建立包含类符─形符比和虚词数在内的可读性公式,为HSK 阅读测试材料的选择提供了依据。随着自然语言处理技术的发展,有学者借鉴英语文本可读性评估的思路,尝试将机器学习算法引入汉语母语可读性任务中来(宋曜廷等,2013;吴思远等,2020),这也为汉语二语文本可读性自动评估提供了思路。此后,有研究者整合汉字、词汇、句子、篇章四个层面多项特征构建汉语二语教材可读性模型,取得了一定的预测效果(Zhu et al.,2020)。

与传统的可读性公式相比,基于机器学习的文本可读性评估可在更大规模的语料上,将更多维度的特征纳入模型。然而,通过考察发现已有研究仍存在以下问题:第一,汉语母语可读性评估的特征体系已经较为完备,但在汉语二语可读性研究领域,相关的评估体系尚不完善。第二,尽管部分可读性研究已经使用机器学习算法,但其对不同层面特征与文本可读性级别间关系的讨论并不细致。第三,以往的汉语文本可读性研究主要关注评估特征的选取及特征有效性的验证,结合具体应用场景展开的实证研究较少。此外,已有汉语二语文本可读性研究主要聚焦于教材文本,对测试文本的关注不够。

语言测试是实现语言标准化或规范化的重要工具(罗莲等,2019),研究 HSK 文本可读性有助于推进汉语水平考试的公平性和科学性。有鉴于此,本文聚焦 HSK 阅读文本可读性自动评估任务,拟尝试从以下三个方面有所突破:一是最大限度整合与汉语二语可读性评估有关的语言特征,设计较为完善的可读性特征集合,为不同应用场景下的汉语二语文本可读性特征选择提供依据。二是从实际应用场景出发,融合上述特征集合进行汉语阅读测试文本可读性自动评估研究,并进一步探究不同层面语言特征与 HSK 阅读文本难度之间的关系;三是通过特征选择,剔除冗余特征,构建面向 HSK 阅读文本可读性评估的最优模型。


二.汉语二语文本可读性特征集合的设计


本节在已有研究基础上,结合汉语二语习得与认知领域成果及相关标准、大纲,从汉字、词汇、句法、篇章四个层面来探索挖掘与汉语二语文本可读性评估相关的特征,尝试构建汉语二语文本可读性特征集合。该集合共涵盖四个层面 16 个维度,如表 1 所示。以下将逐层对所涉及维度及具体语言特征(172 项)进行简要说明。

(一)汉字层面

      汉字是记录汉语的书写符号,作为表意文字,汉字与语素、词汇之间的关系错综复杂。本研究从字形复杂度、汉字多样性与汉字常用度三个维度出发,构建涵盖 49 项具体指标的汉字层面特征。

       字形复杂度,指汉字视觉复杂度,本研究主要考虑笔画、部件和整字三个层次。笔画数计算以《汉语水平词汇与汉字等级大纲》(2001)(简称《大纲》)为依据,首先计算出平均笔画数。随后,以平均笔画数加减一个标准差为标准,区分少笔画字、中笔画字和多笔画字。此外,本研究首次将部件特征和汉字结构纳入可读性特征体系中,并参考邢红兵(2005)部件拆分及计算方法,分别统计部件数量、频率、组合方式等指标,相较于前人研究以上为新增特征。

      汉字多样性,指文本中汉字使用的多样化程度。本研究主要通过类符─形符比来考察。其中形符数指的是文本内部所有字符的总数,类符数指的是文本不重复的字符数。也有研究发现,类符─形符比易受文本长度的影响(Arnaud,1992)。因此,本研究补充汉字UTTR(Jarvis,2002)和汉字 RTTR(Torruella & Capsada,2013)两项指标。

      汉字常用度与汉字字频因素密切相关(江新等,2006)。首先,从汉语二语学习者视角出发,一方面,统计《大纲》中甲、乙、丙、丁级字的比例;另一方面,以《现代汉语常用字表》(1988)为底表,计算常用汉字和次常用字的占比,再将未收录于该表和《大纲》中的汉字归为“超纲字”,并计算该类汉字的比例。与以往研究相比,此为新增视角。其次,基于国家语委语料库“现代汉语语料库字频表”和“BCC 汉字字频表”④计算汉字字频对数,从而得出汉字字频对数均值,再参考吴建国等(2005)计算基于字频加权的笔画数特征。

      (二)词汇层面

      词是语言中最小的能够独立运用的有音有义的语言单位,也是语言中最基本的造句单位。这一层面主要考察词汇长度、词汇多样性、词性复杂度、词汇常用度、词汇语义难度和词汇庄雅度六个维度 54 项具体指标。

       词汇长度,主要计算文本中不同词长的词语比例。

      词汇多样性的考察参考汉字多样性。分别考察词汇类符─形符比、词汇 UTTR 和词汇RTTR 三项指标。此外,还从形符和类符两方面分别计算文本的字词比。

      词性复杂度,主要统计名词、动词、形容词、副词、数词、量词、助词、介词等词语占比,并计算实词比例、虚词比例以及虚词实词比。

      词汇常用度,与汉字常用度的计算相似。首先,以 2009、2010 年出版的 1~6 级《新汉语水平考试大纲》为依据,分别计算 HSK1~6 各级词语的比例,再将 1~2 级、3~4 级、5~6级的词分别归为初、中、高从而计算 HSK 初级、中级和高级词的比例;然后,以国家语委语料库“现代汉语语料库词频表”和“BCC 汉语词频表”为基础计算词频对数。

      词汇语义难度,为本研究新增维度,主要考虑词汇多义度、语义透明度等指标。首先以《现代汉语词典》(第 7 版)为参考,将具有两个及以上义项的词作为多义词并计算其比例;其次通过 word2vec 模型,计算词语语义透明度,确定低透明度表和高透明度词表,并计算其比例。此外,综合已有的“汉语二语文化词表”(赵明,2016)统计出文化词比例。

      词汇庄雅度,为本研究新增维度,主要以《汉语书面用语初编》(冯胜利,2006)收录的书面语词和李培蕾(2015)的《汉语教学用书面语词表》为依据,分别统计嵌偶单音词、合偶双音词、书面语词在测试文本中的比例。另以“中华新华字典数据库”收录的 31648个成语为参考,计算文本中成语比例。

      (三)句法层面

句法复杂度是可读性研究的重要维度,与其他语言相比,汉语句法又有着一定的特殊性。本研究主要从句子长度、短语类型复杂度、句法结构复杂度和句法语义复杂度四个维度出发构建涵盖48项具体指标的句法层面特征。

句子长度,以字、词、分句为单位,分别测算文本相应指标的平均值、最大值和总数。

短语类型复杂度,主要考察句子中不同类型短语的最大数量和平均数量,包括主谓、动宾、动补、双宾、介宾、并列等 8 类短语,以此来衡量短语复杂度特征。

句法结构复杂度,主要包括依存句法复杂度和特殊句型比例。依存句法复杂度的计算参考吴思远等(2020),从依存距离、修饰语、句法树高度三个方面计算。特殊句型参照刘月华等(2001)归纳的面向汉语二语教学的特殊句式,主要统计“把”字句、“被”字句和“连”字句的比例。此外,还需计算表达否定意义的“不”字句、“没”字句、“无”字句、“莫”字句和“非”字句的比例。

句法语义复杂度,为本研究新增维度,主要以语义角色的统计为依据,考察语义角色数量,包括文本中所有句子的平均语义角色数、文本中语义角色最多的句子的语义角色数(下文简称“最大语义角色个数”)和文本所有句子的语义角色总数在内的6项指标。

(四)语篇层面

本研究从篇章长度、篇章指代和篇章衔接三个维度选取21项指标测量篇章层面特征。

篇章长度,主要计算篇章总字数、总词数、总句数。

篇章指代,计算篇章中各类代词的比例以及代词总比例,主要包括指示代词、疑问代词、人称代词(第一、二、三人称代词)。

篇章衔接,本研究参考《现代汉语(增订第六版)下册》(黄伯荣、廖序东,2017)的复句意义类型,以所涉及的关联词为具体指标,统计10类复句的比例。



三. HSK 阅读文本可读性自动评估设计


上文设计了汉语二语文本可读性特征集合,本节则基于特征集合,主要开展 HSK 阅读文本的可读性评估研究。首先构建 HSK 阅读文本数据集,随后对文本进行分句、分词、词性标注和句法分析,最后开展相关实验,探究不同层面的评估效果及其在不同级别文本上的表现,并基于特征选择算法构建最优模型。具体流程可见图1。

(一)数据集构建 

本研究分别收集了华语教学出版社、商务印书馆、高等教育出版社和人民教育出版社于 2010 年、2012 年、2014 年、2018 年出版的《新汉语水平考试真题集》(1~6 级)(以下简称《真题集》)。每个级别对应 5 套试卷,共包含 120 套真题。随后采用光学字符识别工具和人工校对的方式对《真题集》中阅读部分的语料进行识别和修正。在剔除 HSK1 级文本中的“词图匹配”和 HSK6 级文本中的病句后,最终构建了 HSK 阅读文本数据集,该数据集共计 3239 条,详细信息如表2所示。后续实验中,按照7︰3的比例将数据集随机划分为训练集和测试集,其中训练集用于训练数据,测试集用于计算模型预测的准确率。

(二)实验设置

1. 特征抽取

      本研究选用哈尔滨工业大学研发的语言技术平台(language technology platform,LTP)进行分词、词性标注、依存句法分析、语义角色标注;采用斯坦福大学研发的 Stanford Parser 构建短语句法树。结合人工校对的方式,完成 HSK 阅读文本特征抽取。

       2. 评价指标

       本研究将文本可读性评估视为分类任务,采用准确率(accuracy)判断模型优劣、评估实验结果。由于文本各级别间的难度依次递增,那么模型将 HSK1 级的文本预测为 HSK6 级比判定为 HSK2 级的误差更大。因此,本文还采用临近准确率(±accuracy)和皮尔逊相关系数(Pearson)作为评估指标。

      (三)实验结果

        1. 各分类模型性能对比

        本研究依次选用逻辑回归(LR)、随机森林模型(RF)、K 近邻算法(KNN)、分类回归树算法(CART)、朴素贝叶斯模型(NB)以及支持向量机(SVM)六个常用分类模型进行训练。同时,将词频—逆文档频率(TF–IDF)作为基线模型,对比本研究构建的特征集合的表现。训练过程中,采取五折交叉验证的方式对模型的效果进行评估,结果如表 3 所示。

 观察表 3 发现,六种分类算法在仅使用基线模型的情况下,其准确率取值区间为0.408~0.676,远低于对应分类模型在本研究所构建的特征集合上的表现,说明本文所构建的可读性特征集合对 HSK 阅读文本难度具有良好的区分作用,能够较好地完成文本可读性自动评估任务。此外,分别对比六种算法的准确率可知,支持向量机算(SVM)的预测能力最优,表明其最适合本任务,LR 次之,两者准确率分别为 0.876 和 0.861。

         2. 各层面特征及全特征模型的预测能力

        为进一步考察汉字、词汇、句法、篇章四层面特征及全特征的预测能力,我们选取该任务中性能最好的 SVM 算法进行后续实验。由表 4 可知,四个层面的特征均能一定程度地预测出 HSK 阅读文本的可读性级别,但具体表现存在较大差异。预测能力最强的为词汇层面,准确率为 0.871,其表现与基于全特征的模型相当。汉字层面次之,但与词汇层面相比差距较大。预测能力最低的是篇章层面,与预测能力最高的词汇层面相较,其准确率下降 0.362。

         此外,基于全特征的模型其皮尔逊相关系数、邻近准确率与基于词汇层面的模型相比,仅提高 0.006 和 0.001,与基于汉字层面相比,提高 0.074 和 0.049。表现最差的篇章层面与全特征模型在临近准确率上也仅相差 0.19,说明尽管四个层面的特征在可读性评估任务中的表现不平衡,但预测误差大都在相邻级别内。

  为进一步探究四个层面下各维度特征的预测能力,我们分析了 16 个二级维度的预测准确率,如表 5 所示。在 16 个维度中,词汇层面下词汇常用度预测准确率最高,篇章层面的篇章长度预测准确率最低。总的来看,预测准确率排名前五的是:词汇常用度、词性复杂度、汉字常用度、句法语义复杂度、字形复杂度。

3. 各层面特征及全特征模型在不同级别文本上的表现对各层面特征及全特征模型在六个可读性级别上的预测结果进行分析,发现词汇层面特征在各个级别中预测准确率均高于其他三个层面的特征,且呈现出随 HSK 级别提升,预测能力波动下降的趋势(如表 6 所示)。就单一层面特征来看,词汇层面在 HSK1 级和 HSK3 级的预测准确率最高,在 HSK2 级和 HSK4 级稍次,在 HSK5 级和 HSK6 级最低。汉字层面有所不同,在 HSK6 级和 HSK5 级的预测效果最强,在 HSK2 级和 HSK3 级预测效果最差。句法层面和篇章层面则在 HSK1 级和 HSK5 级的文本表现最好。

就不同层面的特征在同一级别上的预测结果来看,四个层面的特征模型在 HSK1 级 文本上均有较好的预测能力。其中词汇层面预测的准确率最高,汉字和句法层面稍次。就HSK2 级文本而言,词汇、汉字、句法、篇章层面的特征模型预测能力依次递减。除词汇层面外,句法、篇章层面在 HSK3 级和 HSK4 级文本上的预测能力比较接近,均为 0.45 左右,预测能力偏低,汉字特征在 HSK4 级文本上的表现优于 HSK3 级。在 HSK5 级和 HSK6 文

本中,词汇层面的识别能力显著下降,汉字层面的识别能力接近词汇层面。句法层面在 HSK6 级的识别效果稍好于篇章层面,但仍低于词汇和汉字层面。

基于全特征的模型在 HSK1~4 级文本中的预测效果优于 HSK5~6 级文本,其中 HSK1级文本的预测准确率最高,HSK5级文本的预测准确率最低,两者相差0.234。HSK2级、3级、4 级文本的预测准确率均在 0.9 以上。4. 特征选择后的最优模型

为构建更为高效和准确的可读性模型,更好地服务于 HSK 阅读文本的自动评估和筛选,我们引入特征抽取算法来减少冗余特征、优化模型。首先计算特征间、特征与可读性级别间的相关系数。在此基础上,筛选出特征间皮尔逊相关系数大于等于 0.6 的组合,并剔除其中与可读性级别相关性小的特征,最终保留 50 个语言特征(见表 7)。汉字和词汇层面下的二级维度均囊括在内,句法层面包括短语类型复杂度和句法结构复杂度两个二级维度,篇章层面仅有篇章衔接进入其中。

基于特征与六个可读性级别之间的相关性排序,我们将 50 个特征逐一添加到模型中,观察模型预测准确率的变化情况(见图 2)。具体来看,当第 49 个特征动词比例加入模型后,模型预测的准确率最高为 0.880。但当第 18 个特征“超纲字”比例(基于字种)加入模型后,模型预测的准确率为 0.874,与最高结果仅差 0.06,因此为兼顾模型的简洁性和准确率,可以考虑将前 18 个特征作为可读性评估的最优特征集合。该最优模型包括:汉字层面下汉字常用度中的丁级字比例(基于字种)、常用字比例(基于字种)、“超纲字”比例(基于字种)3 个特征,汉字多样性中的汉字 UTTR 以及字形复杂度中的汉字最大部件值、汉字平均笔画数、中频部件的比例(基于字次)、汉字最少笔画数、独体字比例(基于字次)、左右结构字的比例(基于字次)6 个特征;词汇层面下词汇常用度中 HSK 初级词比例(基于词次)、HSK4 级词比例(基于词种)、HSK2 级词比例(基于词次)3 个三级特征,词汇多样性中字词比(基于形符),词汇庄雅度中嵌偶单音词比例(基于词种),词汇长度中四音节词比例,词性复杂度中实词比例以及词汇语义难度中多义词比例(基于词次)。

四.分析与讨论

(一)各层面特征及全特征模型的预测能力分析

各层面特征中词汇层面预测准确率最高该结果与已有的汉语母语可读性研究结论一致(宋曜廷等,2013;Sung et al.,2015;吴思远等,2020)。在 16 个二级维度中,预测能力排名前二的词汇常用度和词性复杂度,均属词汇层面。与母语可读性研究相比,本文的词汇常用度特征除包括母语语料库词频特征外,还将不同级别的 HSK 词汇比例纳入其中,以提高该维度的预测能力;用以衡量不同词性分布比例的词性复杂度特征的预测准确率紧随其后。此外,现有可读性公式表明(左虹、朱勇,2014;王蕾,2017;江新等,2020;刘苗苗等,2021),虚词数是影响汉语二语文本难度的重要指标,本文也在一定程度上证明了词性复杂度对于不同水平学习者的重要性。本研究还从语体视角出发,首次将“词汇庄雅度”特征纳入词汇层面,一定程度上也证实了现代汉语口语语体和书面语体差异的成分特征与阅读测试文本难度相关。

汉字层面模型预测能力位居第二位,汉字常用度特征在 16 个维度中的预测能力排名第三。江新等(2006)研究发现字频效应存在于汉语母语者及二语者的汉字认知过程中,高频汉字比低频汉字识别更快,加工难度更低。本研究从母语和二语两个角度出发,构建了基于字频的汉字常用度维度的特征,验证了字频因素对于汉语二语测试文本难度分级的作用。此外,汉字层面的字形复杂度在 16 个维度特征中预测能力位列第五。与已有研究不同的是,本研究将笔画、部件、结构三个角度综合起来,协同考察汉字字形复杂度特征,以期更好反映汉字的视觉复杂度,这也从侧面说明汉语文本可读性研究应从多视角出发挖掘属于自身特点的特征。

句法层面模型的预测准确率低于汉字层面和词汇层面,但高于篇章层面的模型。句法复杂度是语言复杂度的重要维度,也是构成语言能力最基本的要素之一(刘黎岗、缪海涛,2018)。Bulté 和 Housen(2012)提出语法丰富度和深度是影响语法复杂度的两个因素。然而,在真实的语言学习和语言研究中,影响句法复杂度的各个影响因素交织融合,给各因素的自动识别和测量带来了挑战。吴继峰、陆小飞(2021)在探究中级水平汉语学习者写作质量与不同颗粒句法复杂度指标的关系时,发现复杂名词短语和名词前修饰语总长度与作文成绩显著相关。吴思远等(2020)将短语句法结构复杂度和依存句法复杂度纳入到句法层面,本研究在此基础上新增“句法语义复杂度”这一维度特征,发现句法语义复杂度能显著预测测试文本难度,其准确率为 0.547,排名第四。值得注意的是,本文所考察的句法语义复杂度主要为语义角色的数量,属于文本可读性的深层语义特征。一般来说,语义角色的数量越多、类型越丰富,认知加工就会越复杂,学习者理解的难度也会随之增加。此外,句法层面的句子长度、句法结构复杂度、短语类型复杂度的预测能力大小依次降低。

基于篇章层面特征的模型预测准确率最低。以往汉语可读性研究对篇章层面的因素关注较少,本研究考察了篇章长度、篇章指代、篇章衔接三个维度的特征。基于篇章层面特征的预测作用有限,究其原因可能在于,本研究所考察的指标多为语篇的显性指标,如篇长、代词、关联词等,还未涉及到更为深层的语言特征。而与英语不同的是,汉语篇章关系的建构不仅依赖显性的关联词等,还有隐性的篇章连贯手段,如省略、替代、回指等手段。此外,篇章的主题内容、文本类型也可能是其重要影响因素(Crossley et al.,2010;Sheehan et al.,2010),但受技术手段的限制,本文所构建的篇章特征中尚未考虑以上特征,未来的研究中将进一步探究深层语篇特征与文本可读性的关系。

本文所构建的全特征模型的预测准确率为 0.876,表明本研究所挖掘的语言特征符合汉语二语文本的特点,能够较好地完成 HSK 可读性评估这一任务。全特征模型的表现优于各层面模型的表现,也说明文本难度受汉字、词汇、句法、语篇等多重因素影响。

(二)各层面特征与全特征模型在不同级别上的表现

不同层面的语言特征对处于同一可读性级别的文本的预测能力不同。汉字层面在高级阅读文本中的平均预测能力最好,中级最差;词汇层面在初、中级的预测能力较好,高级较差;句法和篇章层面在 HSK1 级和 HSK5 级中表现最好,其他级别均较差。据此,我们尝试进一步分析产生这种差异的原因。

以汉字层面为例,其在中级阅读文本上的表现最差,说明仅依据这一特征不能很好地区分两个级别的文本。观测汉字模型混淆矩阵(见图 3)可知,385 条中级阅读文本中有61 条(约 16%)被预测为初级,19 条(约 5%)被预测为高级,表明中级阅读文本被划分为初级的概率较大,证明部分初、中级阅读文本在汉字层面中的分布差异较小。对中级阅读文本的实际考察,也证明这类语料在汉字层面的差异确实不明显,如表 8 所示。

例(1)、例(2)两组对话在本研究所统计的汉字层面下的各特征的分布并无差异,但在句法层面(短语结构)和篇章特征(分句长度)上存在一定差异,导致模型判断出现偏差。

融合全特征的可读性模型,其准确率会随可读性级别的升高而下降。就本研究而言,原因可能有三:首先,作为语言水平测试,HSK 命题要求严格把控语言难度,但随着级别的提升,语言特征外的非语言因素(如话题、修辞等)可能会对文本可读性产生影响,而这些因素尚未纳入本研究范畴内。其次,句法和篇章特征在可读性较高的文本中表现更为复杂,但受技术所限,这类特征抽取的准确率在一定程度上低于汉字和词汇层面特征,这也会对模型的评估结果产生影响。最后,HSK 阅读文本数据集内部具有不平衡性,单从字种数和词种数来看,HSK1~4 级之间呈现成倍增长趋势,而 HSK5 级 和 HSK6 级之间差距相对较小,可能也会导致模型容易将两级文本混淆。

(三)基于最优模型的特征分析

本研究构建的最优模型由汉字和词汇层面 18 个语言特征组成,模型预测准确率为0.874。汉字层面共 10 个特征进入最优模型,包括字形复杂度下的最大部件值、平均笔画数、中频部件的比例(基于字次)、汉字最少笔画数、独体字比例(基于字次)、左右结构字的比例(基于字次)6 个特征,说明汉字笔画、部件和汉字结构类型在 HSK 阅读文本可读性预测任务中具有较好效果。汉字常用度下有丁级字比例(基于字种)、常用字比例(基于字种)、“超纲字”比例(基于字种)3 个特征进入模型。其中丁级字比例是从汉语学习者字表中抽取的特征,常用字和“超纲字”则是结合母语者字表而抽取到的特征,这表明对于汉语二语文本可读性任务而言,可以合理借鉴汉语母语领域的相关成果。此外,汉字多样性下的汉字 UTTR 进入最优模型,表明本研究中 UTTR 的预测能力高于 RTTR 和类符—形符比。

词汇层面共 8 个特征进入最优模型。包括词汇常用度维下的 HSK 初级词比例(基于词次)、HSK4 级词比例(基于词种)、HSK2 级词比例(基于词次)3 个三级特征。相关分析结果也显示,上述三个特征与可读性级别之间具有强相关性,表明在不同级别的 HSK 阅读文本中,初、中级词语的分布存在较为显著的差异,因而在文本可读性任务中的区分能力较强。该结果与左虹等(2014)、王蕾(2017)的结论一致,与江新等(2020)的结论不一致。这可能与实验所用的语料有关,王蕾、左虹等研究的语料为初、中级学习者的作文,本研究的语料包含 HSK1~6 级阅读文本,而江新等的研究语料只涉及 HSK5~6 级阅读文本。对于高级水平的汉语学习者而言,初、中级词的学习已经完成,因此初中级词语并不是高水平学习者的障碍,也使其在 HSK 高级阅读文本中的预测能力并不显著。

此外,词汇多样性下的字词比(基于形符)进入最优模型。有研究表明字词比与识读率呈正相关,即学习者在掌握相同数量汉字的基础上,认识的词语越多,文本的识读率越高(张卫国,2006)。基于词语统计的类符—形符比、RTTR、UTTR 等常用特征并未进入模型,一方面表明,词汇多样性维度与可读性之间存在相关性,随着可读性级别的增加,词汇多样性越强;另一方面表明,常用的可读性指标在不同的语料中的效度存在差异,应当根据语料的特点选择恰当的指标构建可读性评估模型,王艺璇(2017)在考察词汇多样性与写作质量的关系时,得出了类似的结果。词汇庄雅度下嵌偶单音词比例(基于词种)进入模型,表明反映现代汉语口语和书面语语体差异的成分特征与测试文本难度息息相关。词性复杂度下的实词比例以及词汇语义难度下的多义词比例(基于词次)也分别进入最优模型,证明文本难度越高,词性复杂性和语义难度越高,也表明实词比例和多义词比例与HSK 可读性级别之间具有较大关系。

最后,句法和篇章层面特征无一进入最优模型,我们认为这种现象的出现与 HSK 坚持“以词本位为主,兼顾字本位”的指导思想密不可分,也可能与汉语的“意合”特征有关,即语言要素的组合更多地依赖于语义条件而不是外部的句法手段。


五. 结语


本研究立足汉语二语习得与教学的相关研究,设计了面向汉语二语文本可读性的特征集合,结合HSK阅读文本可读性分析这一具体任务,对比了六种常用机器学习算法的表现,实现了基于最优分类算法(SVM)的 HSK 阅读文本可读性的自动评估。结果显示:(1)基于汉字、词汇、句法和篇章四个层面设计的特征集合能够较好地辅助 HSK 阅读文本可读性自动评估任务的开展。不同层面特征的预测能力存在差异,其中,词汇层面预测能力最佳,其次是汉字层面,句法层面和篇章层面预测作用相对较弱。(2)各层面特征在同一级别的预测能力以及同一层面特征在不同级别文本的预测能力有所不同。此外,全特征模型的预测能力随文本可读性的升高而降低,这可能与非语言因素和 HSK 阅读文本数据集本身不平衡有关。(3)特征选择后的最优模型共有 18 个语言特征,包括词汇和汉字两个层面,句法和篇章特征未能进入该模型,可能与 HSK“以词本位为主,兼顾字本位”的指导思想有关。总的来说,本研究构建了一个具有较高预测效度的 HSK 阅读文本可读性评估模型,研究成果可为汉语水平考试文本难易度的测量提供一把科学有效、客观量化的标尺,从而服务于大规模测试材料的筛选和改编,为建立大规模 HSK 分级试题库提供基础性参考。

需要指出的是,本文立足应用视角,实现了 HSK 阅读文本可读性评估,但仍存在有待进一步挖掘和讨论的问题。首先,在识别短语类型复杂度、句法结构复杂度和句法语义复杂度等特征时,囿于技术的限制,特征抽取的准确率有待提升。其次,句法层面的语义复杂度和语篇层面的体裁类型、主题以及语用层面的修辞等因素有待进一步挖掘。再次,深度学习算法在文本分类任务中渐趋成熟,未来可考虑应用到可读性自动评估中以提升模型的效果。此外,本研究虽然较为系统地构建了汉语二语文本可读性特征集合,但其适用性有待进一步验证,今后可考虑扩充更多的二语文本数据,从而构建适用性更强、准确率更高、应用场景更广的可读性模型,以此辅助语言教学、测试和教材编写。



作者简介


杜月明,北京大学对外汉语教育学院博士生,主要研究中文信息处理、国际中文教育;王亚敏,北京大学对外汉语教育学院博士生,主要研究二语习得、国际中文教育;王蕾,北京语言大学讲师,博士,主要研究为汉语二语习得与教学。

本文来源:《语言文字应用》

点击文末“阅读原文”可跳转下载



课程推荐




重  磅|2022全球前2%顶尖科学家榜单(语言学)

2022-10-23

刊讯|SSCI 期刊《第二语言研究》 2022年第2期

2022-10-23

博士招生|莱比锡大学招收语言学博士生

2022-10-23

博学有道|港校中文教育方向申博交流会

2022-10-22

学术会议|清华大学第四届“语言文字学青年学术论坛”

2022-10-22

刊讯|《清华语言学》第1-2辑

2022-10-22

学术会议|2022年语言、文学与科学前沿论坛

2022-10-21

刊讯|SSCI 期刊《心智与语言》2022年第1-2期

2022-10-21

系列讲座|语言、认知与大脑@10月21日-12月9日

2022-10-21

招  聘|华东师范大学国际汉语文化学院2022年度人才招聘

2022-10-20

系列讲座|国际中文教育前沿系列讲座

2022-10-20

博士招生|北京师范大学文学院2023年博士招生(语言学)

2022-10-19

刊讯|《方言》2022年第3期

2022-10-19

免费资源|《汉语方言学大词典》数字化平台在线开放!

2022-10-19


欢迎加入

“语言学心得交流分享群”


“语言学考博/考研/保研交流群”

请添加“心得君”入群务必备注“学校+研究方向/专业”

今日小编:  Eliza  

审     核:心得小蔓

转载&合作请联系

"心得君"

微信:xindejun_yyxxd

点击“阅读原文”可跳转下载

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存